Инциденты и коммуникация: что, 
как и зачем говорить, когда все 


сломалось : 


Виктор Попов 
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/Виктор Попов 


Техлид ОеуОрз-командин департамента по развитию и 
эксплуатации корневых систем в Х5 Retail Group 


Помогаю поддерживать и развивать К85-кластеры аѕ-а-ѕегуісе 
для 20+ продуктовых команд. А так же кучу сопутствующих 
инструментов 


Чиню коммуникации между dev- и ор5- командами 


Рассказываю пользователям, чем вообще занимаются 
инженеры 


Бегаю по разным людям с безумными идеями и мешаю им 
работать 


tg: (О мапомматмапомсћ! 
mail: мК.рором(ох5.ги 
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X5 RETAIL GROUP 


О КОМПАНИИ 


Х5 Retail Group — ведушая продуктовая 
розничная компания России. 


Управляет брендами: 


ч 
ЖК | оноло 5 


>5)X5 LOGISTICS 


€ x5 IMPORT 
X5 food 
DIALOG >X5 


Ключевые цифры: 


25 лет 17959 


На рынке продуктового Магазинов“ 


ритейла в России 


128% 126% 


Доля рынка Доля онлайн-рынка 
Продуктовой розницы Продуктов питания 
“340тыс. 
Сотрудников“ 
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/О Х5 ТЕХНОЛОГИИ 


Х5 Технологии — бизнес-единица Х5 Retail Group, которая 
создает комплексные 
цифровые решения для бизнеса и торговых сетей компании. 


~ 2 700 34 / 113 


Сотрудников Активных продуктов / 
проектов 


< 56 млн 5.0 Пб 


Золотых записей Объемы хранения 
клиентов кластера больших данных 


324 / 20 > 1 200 


Ит-систем в Физических серверов 
эксплуатаци/критичных 
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/ГРАНИЦЫ ПРИМЕНИМОСТИ 


Все зто мое ИМХО 
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/ГРАНИЦЫ ПРИМЕНИМОСТИ 


Все зто мое ИМХО 

И опыт 
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/ГРАНИЦЫ ПРИМЕНИМОСТИ 


Невраждебные пользователи 


Технически грамотные 


тнтияу” ~ 


ПРО ДОВЕРИЕ 


«TRUST МЕ» 


ВТ 7274 TITANFALL 2 


УХ5 RETAIL GROUP 


/SHIT HAPPENS 
НЕ ЕСЛИ, A КОГДА 


УХ5 RETAIL GROUP 


/ПРОЗРАЧНОСТЬ 


Пользователи узнают 
о проблеме 


ИХ 
SZ 


«What we don’t 
understand we can 
make mean anything. » 
Chuck Palahniuk «Diary» (2003) 
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/ПРОЗРАЧНОСТЬ 


Пользователи узнают 
о проблеме 


Лучше если они узнают 
от вас 


«What we доп 
understand we can 
make mean anything. » 


Chuck Palahniuk «Diary» (2003) 
bs Ра === ЕЕ 
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ПРОЗРАЧНОСТБ: 


Все метрики доступнь на 


ССЫЛКА ТУТ 


публичных дашбордах 


ет НА й - = 
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/ ПРОЗРАЧНОСТЬ: СІТІАВ 


Даже вот такие: 


88 general: SLAS тт < 


Global ~ 
м Overall System Availability 


GitLab.com Availability 


99.80% 


~ Primary Services 
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/ВАЖНОСТЬ ДОВЕРИЯ 
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/ЧЕЛОВЕЧЕСКИЙ ФАКТОР 


Самая частая 
причина проблем 
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/ЧЕЛОВЕЧЕСКИЙ ФАКТОР 


Самая частая 
причина проблем 


Не существует* 


УХБ RETAIL GROUP 


/ПРОБЛЕМУ МОЖНО 


Скрыть и не сделать выводы 
(но это прям фу таким быть) 


УХ5 RETAIL GROUP 


/HE BPATb 
И HE БОЯТЬСЯ 


Скрыть и сделать выводы 


Рассказать и сделать выводы 


ИХ 
SZ 


«1 never lie because | don’t fear anyone. You only lie 
when you’re afraid » 


John Gotti American Criminal 


ПРО ИНЦИДЕНТЫ 


«IT’S SO HARD TO FORGET 
PAIN, BUT 17,5 EVEN 
HARDER ТО REMEMBER 
SWEETNESS. 

WE HAVE NO SCAR TO 
SHOW FOR HAPPINESS. 
WE LEARN SOLITTLE 
FROM PLACE» 


CHUCK PALAHNIUK 


УХ5 RETAIL GROUP 


/РОЛИ. ПОЖАРНЫЙ 


Тот, кто прямо сейчас всех спасает 


ИХ 
SZ 
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/ РОЛИ. КООРДИНАТОР 
ПОЖАРА 


Держит общую картину 

Транслирует решения команде 
Распараллеливает задачи 

Сообщает о взаимомешающих задачах 


Ведет лог инцидента 


ИУ ШЕ Ней оаа 
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/ РОЛИ. КООРДИНАТОР 
ПОЖАРА 


Не обязательно самый опытный или высокий по должности 


Не бойтесь взять эту роль 
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/РОЛИ. ЛИДЕР 
КОММУНИКАЦИИ 


Транслирует происходящее 


ИХ 
SZ 


– Ней! оад++ 
(ну НЕҺ-О: 


УХ5 RETAIL GROUP 


/РОЛИ. ЛИДЕР 
КОММУНИКАЦИИ 


Защищает пожарных 


Особенно от больших боссов 
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/РОЛИ. ПЕРЕДАЕМ ЗСТАФЕТУ 


Важно ЯВНО передать роли, задачи, результаты 
Здесь поможет лог инцидента 

Героизм может сделать хуже 

Отдыхать нужно 


Инженеров нужно кормить! 
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/РОЛИ 


Должны быть известны и понятны 
Границы ответственности установлены заранее 
Степень формальности - на ваш вкус 


Вот как это сделано у гитлаба: 


During an incident, the СМОС will: 


1. Be the voice of GitLab during an incident by updating our end-users, internal parties, and executive-level managers 
through updates to our status page hosted by Status.io. 


2. Update the status page at regular intervals in accordance with the severity of the incident. 


3. Notify GitLab stakeholders (e-group, customer success and community team) of current incident and reference where 
to find further information. Provide additional update when the incident is mitigated. 
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/ КОММУНИКАЦИИ ВНУТРИ КОМАНДЫ 


Должна быть обговорена заранее 


Мессенджеры оставляют артефакты 
Если у вас war room - нужен летописец 


Доверие внутри команды 


ИХ 
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/BO ВРЕМЯ ИНЦИДЕНТА 


Не молчим 

Не флудим 

Регулярный статус 

Доносим информацию только тем, кому она нужна 


Трезво оцениваем сроки 


ИХ 
SZ 
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/УРА, МЫ ВСЕ ПОЧИНИЛИ 


Сообщаем пользователям: 
Статус 

Ограничения в работе 

Что нужно сделать с их стороны 


Когда вернется в 100% рабочее состояние 


УХ5 RETAIL GROUP 


/POSTMORTEM 


TyT пригодится лог инцидента и координатор 
Хронология 

Откуда узнали 

Что произошло, что делали, что не помогло, что помогло 


Что сделать, чтобы такого больше не было? 


SZ) 


He советую гуглить postmortem 


в поиске изображений. 


Позтому тут белочка 


А HighLoad++ 
(ні) сета 


УХ5 RETAIL GROUP 


/POSTMORTEM. 
5 «ПОЧЕМУ» 


Problem 1: GitLab.com was down for about 18 hours. 


1. Why was GitLab.com down? - The database directory of the primary database was removed by accident, instead of 


removing the database directory of the secondary. 


2. Why was the database directory removed? - Database replication stopped, requiring the secondary to be reset/rebuilt. 
This in turn requires that the PostgreSQL data directory is empty. Restoring this required manual work as this was not 


automated, nor was it documented properly. 


3. Why did replication stop? - A spike in database load caused the database replication process to stop. This was due to the 


primary removing WAL segments before the secondary could replicate them. 


4. Why did the database load increase? - This was caused by two events happening at the same time: an increase in spam, 


and a process trying to remove a GitLab employee and their associated data. 


5. Why was а GitLab employee scheduled for removal? - The employee was reported for abuse by а troll. The current 
system used for responding to abuse reports makes it too easy to overlook the details of those reported. As a result the 


employee was accidentally scheduled for removal. 
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/POSTMORTEM 


Постмортем без реальных задач – плохой постмортем 


Вот тут пример отличного постмортема 


от гитлаба: 


Не советую гуглить postmortem 


в поиске изображений. 


Позтому тут белочка 
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/BLAMELESS 
POSTMORTEM 


Здоровая культура в компании 


Снижает вероятность инцидента из-за страха признаться 


в ошибке 


Вот тут ребята из Atlassian классно рассказывают про 


blameless в постмортемах: аа 
в поиске изображений. 


УХБ RETAIL GROUP 


/СООБШАЕМ ИТОГИ 
ИНЦЕДЕНТА 


Простым языком 
Кратко 

Почему 

Как починили 


Почему не повторится 


Ссылка на подробный анализ в постмортеме 


УХ5 RETAIL GROUP 


/КАНАЛЫ КОММУНИКАЦИИ 


Нет плохих, есть не подходящие 
Используйте то, что удобно вашим пользователям, а не вам 


Даже ради нескольких пользователей стоит использовать еще 


один канал связи 


ЧАСТЬ 5 


ЧТО ЕЩЕ 
ПИСАТЬ? 


«ТНЕ КЕУТО 

А GREAT STORY 

IS NOT WHO, 

OR WHAT, OR WHEN 
BUT WHY.» 


ELLIOT CARVER 
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/ ПИШИТЕ НЕ ТОЛЬКО ПРО ИНЦИДЕНТЫ! 


Коммуникация ведёт к доверию 


Пользователи узнают, чем вы вообще заняты и почему их тикеты 
не решаются мгновенно 


Пользователи научатся чему-то новому 


Меньше одинаковых вопросов наны мынан 
Что я могу еше сказать? 
Теперь я знаю в вашей воле 
Меня презреньем наказать. 


А. С. Пушкин 


УХБ RETAIL GROUP 


Завтра, 22 декабря, продолжим обновление Серһ 


/ Ч ТО П И САТ Ь • = оа 20:00 -- 23:00 
АНОНСЫ РАБОТ зачем? 


Исправить баг в 53, не позволяющий снимать бекапы. 
Так же появится функционал ресайза серп вольюмов. 


С человеческим лицом 


Срочность 
От обновления зависит еще несколько важных 
Объясняем зачем внутрипродуктовых и инфраструктурных задач, которые очень 
хотелось бы сделать в этом году. КР! горит, классика :) 
Поэтому очень хотелось бы иметь запас по времени, если во 
время обновления снова возникнут сложности. 
Обосновываем срочность 
Влияние 
Потушим ранчер и гитлаб, чтобы быть увереными, что никто 
не создаст новые мојитесја!т. 


Так же вероятно снижение производительности стораджа, но в 


прошлый раз жалоб замечено не было. о 
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/ЧТО ПИСАТЬ. НОВЫЙ 
ФУНКЦИОНАЛ 


«Оправдывает» обновления 
Пользователи узнают про новые фишки 


ИХ 


Обновили г! Па с 13.0 до 13.2. Что нового? 


13.1 

Аналитика конрибуторов теперь показывает количество 
принятых МЕ. 

Фильтры пайплайнов по статусу и тегу. 

Переменные СІ/СО уровня инстанса gitlab. 

Шаблоны для rules. Подробности тут: 
httos://docs.gitlab.com/ee/ci/yami/index.html#workflowrules- 
templates 

Добавили поиск по rpynne. 


Полный список изменений доступен тут: 
https://about.gitlab.com/releases/2020/06/22/gitlab-13-1-released/ 


13.2 
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/ЧТО ПИСАТЬ. АНОНС 
ВАЖНЫХ ИЗМЕНЕНИЙ 


Чтобы к вам не прибежали, когда сломается 


Сюда же про дорожные карты и планы на будущее 


SZ _—____ 


Смена имени ветки по-умолчанию 


В гіс версии 2.31.0 ветки по-умолчанию меняют с гпазтег на 
main. 


До gitlab это изменение докатится в 14.0, но уже с 15 марта 
после удачного apt upgrade вы получите ветку main после 
локального git init. 


B gitlab 13.11 (конец апреля) появится возможность задавать 
имя ветки по-умолчанию для новых репозиториев и мы 
планируем выставить там тазтег, чтобы сохранить привычное 
именование. 


Думаю, что важно обговорить naming convention внутри 
каждой команды отдельны. 

Мы не настаиваем на каком-либо из вариантов и оставляем 
выбор полностью за вами. 
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/ЧТО ПИСАТЬ. FAQ 


Как настроить сборку gradle через кеширующий прокси? 


Если вас о чём-то спросили больше чем 2 раза - В build.gradle в блок repositories добавляем 
repositories { 
пора ответить массово maven { игі 'nttps:// „го/герозогу/геро.зрппе.о/ } 
maven { url 'https:// .ru/repository/maven-central/" 
} 
maven 1 url ' 
Если что - потом будете просто пересылать https:// ru/repository/GradlePluginPortal/ } 
maven { url 'httos:// .ru/repository/JCenter/’ } 
сообщение mavenLocal() 


В settings.gradie добавляем 
pluginManagement { 
repositories { 
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/ЧТО ПИСАТЬ. ПОЛЕЗНЫЕ СОВЕТЫ 


о иа 
а Шаблон на создание новой проектной группы в Gitlab 


~ - | (еш | е 


Почти как FAQ, только вас еще не спросили, авы ___ въ ана 
уже всем ответили = 


Изформвация дла постройка 


Как клонировать задачу из шаблона 


Вот так. 
Сам узнал совсем недавно :) 


ИХ 
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КАК ПИСАТЬ? 


«КРАТКОСТЬ - 
СЕСТРА ТАЛАНТА.» 


ATL ЧЕХОВ 
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/KAK ПИСАТЬ? 
KPATKO! 


Было 


Информирование о работах и сбоях на платформе 


Коллеги, мы проводим информирование о событиях на 
системах и компонентах Платформы 
больших данных по электронной почте. 


Письма рассылаются централизованно на групповые списки 
рассылки, разделенные по кластерам: 


<...> 


Новости и полезная информация 

С новостными сообщениями вы всегда можете ознакомиться в 
наших телеграмм каналах. Список и ссылки подключения к ним 
в основном ТГ канале и по ссылке, указанной выше. 1:12 A 


Стало 
Информирование о работах и сбоях на платформе 


Мы сообщаем о событиях на системах и компонентах 
Платформы 
больших данных по электронной почте. 


Письма рассылаются группы рассылки, разделенные по 
кластерам: 

ем 

Новости и полезная информация 


Ешеу нас есть информационные телеграм каналы по 
платформам. Ссылки на подключение тоже есть в вики. 


112 Ж 
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/КАК ПИСАТЬ? 
СТРУКТУРИРОВАННО! 


Было 


Коллеги, мы сделали канал с алертами ћме запросов и 
изменения количеста файлов и места в ПЯ. 

наш канал: https://t.me/joinchat/placeholder 

описание aneptos:https://wiki.ru/pages/placeholder 

Также помимо самого канала мы подготовили два дашборда 
которыми вы можете пользоватся 
https://kibana.ru/goto/placeholder 
https://grafana.ru/d/placeholder 

для доступа в дашборд kibana: 

login: placeholder 

pass: placeholder 

тут можно посмотреть будет все данные которые мы получаем 
позапросу 

Мы надемся что данный иструмент будем полезен а так-же 
ждем от вас обртаной связи. 

ваши предложения вы можете оставить в виде коментария вот 
тут: https://wiki.ru/pages/placeholder 

или написать в чат по мониторинга вот тут: 
https://t.me/joinchat/placeholder 

В скором времени так-же бедут алерты и дашборд no spark в 
кластере hadoop edited 1:19 W 


Стало 


Публичный мониторинг использования Hive и HDFS 


Мы хотим сделать работу с кластером Нме прозрачной, чтобы 
все пользователи понимали, как их запросы могут влиять на 
другие команды. 


Для этого были созданы 
канал с алертами: https://t.me/jainchat 
дашборд в Кібапа с детализацией запросов: https://kibana- 


ru/goto/ 
дашборд в grafana с детализацией потребляемого места и 
количества файлов: https://grafane ru/d/t 


Если нет доступа в кибану, TO можно войти под 
login: 
pass: 


Тут описано, что за алерты и что показывают дашборды: 
https: “u/pages/viewpage 


Данные инструменты помогут вам оптимизировать запросы и 
эффективно использовать ресурсы кластера. 


Задать вопросы по дашбордам и алертам, а так же что-то 
предложить можно: 

вчате по мониторингу: 

https://t.me/joinchat/ 

В комментарии к статье Ha вики 


В планах аналогичные решения для 5рагк. 
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/КАК ПИСАТЬ? 
ИНФОРМАЦИОННЫЙ СТИЛЬ 


Лаконично Было: Стало: 


В целях повышения доступности сервиса Переехали на БД в НА конфигурации 
осуществлена миграция на 


высокодоступную и отказоустойчивую СУБД 


Интересно Было: Стало: 


Произведем работы по повышению Переехали на НА базу данных, добавили 


стабильности платформы ресурсов сервису отрисовки котиков, 


исправили багу ХХХ. 
Честно Было: Стало: 
Сервис предоставляется с ограничениями Сломалось создание новых 
в течение ближайшего времени репозиториев. Починим часа за 2 


А HighLoad+ 
(ну за 


УХ5 RETAIL GROUP Д 


/КАК ПИСАТЬ? 
ИНФОРМАЦИОННЫЙ СТИЛЬ 


Вот тут подробнее: 


А вот тут можно проверить текст на _ ССЫЛКА ТУТ 


читаемость: 


за Ней! оад++ 
(ну НЕҺ-О: 


ЧАСТЬ 5 


К ЧЕМУ 
ВСЕ ЗТО? 
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CNACUBO ЗА ВНИМАНИЕ! 
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